티맥스에이아이는 올 연말 상용화를 앞둔 STT(Speech to Text·음성 인식) 모델이 자체 수행 인식 성능 테스트에서 우수한 결과를 보였다고 7일 밝혔다. 티맥스에이아이에 따르면 이번 테스트는 저음질 전화망 음성인식 데이터 샘플 4만 763개 및 고객 응대 음성 샘플 2만1788개를 대상으로 수행됐다. 음성 데이터를 들려주고 STT 모델이 원본에 얼마나 가깝게 텍스트화하는 지를 측정했다. 저음질 전화망 음성인식 테스트 결과 티맥스에이아이 STT 모델은 전화망 환경에서 높은 정확성을 보였다. 이번 테스트에는 교육·민원·HR·전자상거래 등 분야의 전화 상담 음성 데이터를 활용했다. 음절 에러 비율을 의미하는 CER(Character Error Rate)은 8.00%로 나타났다. 이는 100개의 음절 중 92개의 음절을 정확하게 받아 적었음을 의미한다. 고객 응대 음성 테스트에서는 더 높은 정확도를 보였다. 고객 응대 음성 데이터는 매장이나 키오스크에서의 주문·검색·조작·고객 응대 음성 데이터로, 가상 시나리오를 기반으로 제작됐다. 이 테스트에서는 3% 대의 음절 에러 비율을 기록했으며 지역 방언까지 정확하게 인식해 받아쓰는 것으로 나타났다. 티맥스에이아이
셀바스AI가 음성 합성 솔루션 ‘Selvy deepTTS’가 지자체 및 공공기관에 확대 공급돼 다양한 안내방송 서비스에 적용되고 있다고 24일 밝혔다. 지자체 및 공공기관 내 안내방송 등에 USS(Unit Selection Synthesis) 방식 음성 합성 솔루션을 사용하던 고객들이 더 자연스러운 보이스를 원하는 경우, ‘Selvy deepTTS’로 전환하는 사례가 증가하고 있다. 셀바스AI의 Selvy deepTTS는 딥러닝 기반 음성 합성 솔루션이다. 기존 USS 방식의 음성 합성 솔루션은 성우를 대체하여 안내방송을 제작할 수 있어 시간과 비용을 절감했으나, 다소 어색하고 딱딱한 목소리에 대한 아쉬움이 있었다. 이를 보완하기 위해 등장한 Selvy deepTTS는 인공지능 기술로 사람의 호흡, 억양, 감성 등 다양한 음성 요소를 정교하게 모델링하여 구현해 사람처럼 자연스럽고 유창한 합성 음성 생성이 가능하여 업계에 빠른 속도로 확산 중이다. Selvy deepTTS는 딥러닝 기반의 인공지능 솔루션이지만, 고가의 그래픽처리장치 장비 없이 중앙처리장치 환경에서도 높은 성능을 내도록 최적화되었다. 또한 윈도우 PC나 리눅스 시스템에서 활용이 가능하며, ‘자연